最先进的音频源分离模型依赖于监督数据驱动方法,这在标记资源方面可能是昂贵的。另一方面,在没有任何直接监管的情况下训练这些模型的方法通常在记忆和时间要求方面都是高要求的,并且在推理时间使用不切实际。我们的目标是通过提出一种简单但有效的无监督分离算法来解决这些限制,该算法直接在时域信号的潜在表示上运行。我们的算法依赖于预先训练的自回归网络形式的深贝叶斯前沿来模拟每个来源的概率分布。我们利用离散潜空间的低基数,培训具有新的损失术语,对其进行精确的算术结构,在不依赖于近似策略的情况下执行精确的贝叶斯推理。我们在Slakh Dataset Arxiv验证了我们的方法:1909.08494,展示了符合现有技术的导致监督方法,同时需要对其他无人监督的方法进行更少的资源。
translated by 谷歌翻译
从视频中获取人口统计信息对于一系列现实应用程序来说是有价值的。虽然杠杆化性别推断的面部特征的方法在受限制的环境中非常成功,但在受试者没有面对相机时,它们不起作用在大多数真实的场景中,由于距离距离而受阻相机或分辨率差。我们提出了一种基于其行走方式学习人民性别信息的弱监督方法。我们利用最先进的面部分析模型来自动注释前视步,并通过利用基于步态的标签传播来推广以取消观察。我们的结果表明,面部分析模型的PAR或更高的性能,F1得分为91%,并且成功地推广到面部分析因未面临摄像机的受试者而无法不可行的情景的能力。
translated by 谷歌翻译